查看原文
其他

省大数据局关于申报2024年高质量数据集工作的通知


各有关单位:

为贯彻落实《关于促进全国一体化算力网络国家(贵州)枢纽节点建设的若干激励政策》中明确提出的“归集高质量基础训练数据集,支持各类市场主体通过贵州省数据流通交易平台提供高质量数据集,为开发、训练、应用大模型提供支持,每年安排资金总额不超过500万元,对训练使用量、数据质量等综合排名前10的市场主体给予奖励”的相关要求,省大数据局将组织开展高质量数据集排名评比工作,对排名前10名的单位实施奖励。现将具体内容通知如下。

一、支持对象

在贵州省内注册,并通过贵州省数据流通交易平台完成数据集登记的有关单位。

二、申报条件

(一)选取科学、制造、农业、能源、交通、金融、医疗、教育、消费、互联网治理、人力资源、公共安全、环保等重点行业,汇聚一批包含文本、图像、音频、视频等多模态的行业高质量数据集。

(二)数据重复率不高于5%,具备准确、全面的文本描述,符合同一格式规范可以直接用于大模型训练。

1.同一单位可以申报同一行业的多个数据集,涵盖两种及以上模态数据的可适当放低标准。各模态数据要求如下:

①文本数据不低于100G;

②图像数据不低于200G,图像数量不低于10万张、规格不低于768×1024像素;

③音频数据不低于3000小时;

④视频数据不低于20TB,清晰度不低于720P。

2.应开放测试数据,测试数据不低于100条。

3.申报数据集不得包含已开源的行业高质量数据集,近5年数据占比不低于50%,数据具有定期更新机制。

4.数据集不包含违反社会主义核心价值观的内容。

(三)申报单位须生产经营状况和信用记录良好,在“信用中国”网站(www.creditchina.gov.cn)、中国政府采购网(www.ccgp.gov.cn)、“国家企业信用信息公示系统(贵州)(http://gsxt.amr.guizhou.gov.cn)”等渠道中查询未被列入失信被执行人名单、重大税收违法失信主体名单。

三、提交资料清单

(一)单位资料

1.企业营业执照副本或事业单位法人证副本(加盖单位公章);

2.经贵州省数据流通交易服务中心颁发的数据商凭证;

3.单位基本情况(加盖单位公章);

4.申请报告(加盖单位公章);

5.上一年度审计报告(加盖单位公章);

6.未被列入失信被执行人名单、重大税收违法失信主体名单相关印证材料(加盖单位公章);

7.申报材料真实性承诺书(加盖单位公章);

(二)数据集资料

1.数据集基本情况介绍(包括数据集简介、模态类型、数据规模、地域范围、时间范围、更新机制、文本描述等);

2.数据集所含数据的来源印证材料;

3.经贵州省数据流通交易服务中心颁发的数据要素登记凭证;

4.评选指标符合性对照表;

5.测试数据集(提供U盘);

6.已合作或意向合作大模型相关印证材料;

四、评比流程

(一)报名阶段。有意向申报的单位按照通知要求提交报名材料并相关证明材料等。

(二)初筛阶段。省大数据局对申报材料进行初步审核,确定符合参评条件的单位名单。

(三)评审阶段。邀请专家组成评审团,对申报数据集进行综合评价,确定排名。

(四)公示阶段。对评审结果进行公示,接受社会监督。

五、申报时间及方式

请于9月10日前,将纸质申报材料一式三份,并拷贝一份电子申报材料及测试数据集U盘交到贵州省大数据发展管理局数据资源处。

六、联系方式

联系人及电话:吕东,18198344340

联系地址:贵州省大数据发展管理局数据资源处1003办公室(贵阳市云岩区北京路191号贵旅大厦)

附件:

2024年9月2日




来源 贵州省大数据发展管理局

请点击下方“阅读原文”下载附件


继续滑动看下一个
国家技术标准创新基地 大数据
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存